package com.hive.etl;

/*
 * 	①统一集合类型的分隔符为&，替换最后一个字段的分隔符由\t替换为&
 *	②去除category中每个类别多余的空格
 * 	③每行数据至少有10个字段
 *
 */

public class ETLUtil {

	public static String parseString(String source) {

		StringBuffer sb = new StringBuffer();

		String[] words = source.split("\t");

		// 每行数据至少有10个字段
		if(words.length < 10) {
			return null;
		}

		// 祛除category中每个类别多余的空格
		words[3] = words[3].replaceAll(" ", "");

		// 统一集合类型的分隔符为&，替换最后一个字段的分隔符由\t替换为&
		for (int i = 0; i < words.length; i++) {

			if(i < 9) {
				sb.append(words[i] + "\t");
			}else {
				sb.append(words[i] + "&");
			}

		}

		String result = sb.toString();

		return result.substring(0, result.length()-1);



	}
}
